這部分的內容應該已經告一個段落,剩下三個Youtube介紹 real-world examples而已,但還有另外兩個大項目Problem Framing跟Data Preparation and Feature Engineering沒有辦法go through到,就要留給大家自己去研讀了。
Ref.: Cancer Prediction
Youtube:
癌症預測的例子中,有一個小互動。在Training的時候把年齡、性別、醫院名稱、症狀這些feature丟進model,訓練出來的model可能會存在哪些問題?
醫院名稱可能隱含一些資訊(像是他是專門看癌症的醫院),會讓訓練結果認為大部分去那間醫院的,都很有可能患有癌症。所以Feature暗喻的結果也是我們需要考慮進去的因素。
Ref.: 18 Century Literature
Youtube:
這篇主要提起的一個觀念是:雖然我們有Randomize,但是不是在正確的Scope下Randomize?
如果我們的datasets已經按照某種分類切割好,在那個分類裡Randomize也沒有用處,你會看到妳的set會有很大的Data skew。最後也做了兩個總結:
Ref.: Real-World Guidelines
Youtube:
這邊做了六個Guideline: